Nature:终结遗传力缺失之谜——全基因组测序如何成功捕获88%的家族遗传力
来源:生物探索 2025-11-16 09:25
“遗传力缺失”的主要原因并非谱系研究的估算有误,也不是因为存在大量复杂的非加性效应,而根本上是因为我们之前的技术无法全面地测量所有类型的遗传变异。
很多人都可能思考过自己的相貌、身高、甚至某些行为习惯,有多少源自父母,又有多少是后天塑造?这个关于“先天与后天”的古老命题,在基因组时代被赋予了一个精确的度量:遗传力 (heritability)。它衡量的是在一个群体中,特定性状的差异有多大比例可以归因于基因差异。以身高为例,几十年来,通过对双胞胎和家族的研究,我们知道其遗传力高达80%左右。这意味着,人群中身高的不同,绝大部分是由基因决定的。
然而,一个巨大的谜团也随之诞生,并困扰了遗传学界十余年。当研究人员兴致勃勃地带着强大的全基因组关联分析 (Genome-Wide Association Studies, GWAS) 工具,试图找出那些决定身高的具体基因时,他们最初找到的所有常见基因变异加在一起,竟然只能解释不到10%的身高差异!那剩下的70%多跑哪儿去了?这部分“凭空消失”的遗传贡献,被冠以一个充满悬疑色彩的名字:“遗传力缺失” (missing heritability)。这个“幽灵”不仅出现在身高研究中,也广泛存在于体重指数、糖尿病、精神疾病等几乎所有复杂性状的研究里。
这个“幽灵”究竟是真实存在,还是我们寻找它的方式出了问题?
11月12日,《Nature》的研究报道“Estimation and mapping of the missing heritability of human phenotypes”,以前所未有的规模和精度,为我们揭开了这个谜团的神秘面纱。这项研究不仅让我们看到了“幽灵”的真身,更精准地描绘了它藏匿的角落。

“失踪”的遗传力:一场困扰基因侦探十余年的悬案
要理解这场追捕行动的艰巨性,我们首先要厘清“遗传力”这个核心概念。想象一下,遗传力就像一个装满水的理论“总水池”,它的大小是通过“自上而下”的宏观方法估算的。比如,通过比较同卵双胞胎(基因100%相同)和异卵双胞胎(基因平均50%相同)的性状相似度,研究人员可以推断出遗传因素在其中的整体分量。这种基于家族谱系 (pedigree) 的估算,我们称之为 谱系遗传力 (pedigree-based heritability, h²_ped)。它告诉我们,理论上基因“应该”能解释多大比例的性状差异。
然而,知道水池有多大,不等于知道里面的水是从哪些水龙头流出来的。为了找到这些“水龙头”,也就是具体的遗传变异位点,研究人员开发了“自下而上”的微观工具:GWAS。GWAS就像一个超级扫描仪,它在成千上万人的基因组中寻找与特定性状相关的常见遗传变异,主要是单核苷酸多态性 (Single-Nucleotide Polymorphisms, SNPs)。每个被找到的关联位点,就像一个被拧开的小水龙头。我们把所有这些小水龙头流出的水量加起来,就是SNP遗传力 (SNP-based heritability, h²_SNP)。
悬案就此产生:h²_SNP 远小于 h²_ped。这个巨大的鸿沟,就是“遗传力缺失”。
这引发了学界多年的激烈争论。一些人认为,谱系研究可能高估了遗传的作用,或许把某些共同的家庭环境因素误算成了基因效应。另一些人则坚信,问题出在我们的“扫描仪”上。GWAS早期使用的基因芯片技术,主要擅长捕捉人群中频率高于5%的常见变异 (common variants)。这就像只在路灯下找钥匙,我们忽略了黑暗中更广阔的区域。
那么,“黑暗”中潜藏着什么呢?遗传学家们提出了几个主要的“嫌疑犯”:
1. 稀有变异 (rare variants):在人群中小于1%的人携带的基因变异。它们的数量极其庞大,但单个变异由于频率太低,很难被传统GWAS检测到。
2. 结构变异 (structural variants):更大片段的基因组重排,如拷贝数变异、插入、缺失等,基因芯片同样难以捕捉。
3. 非加性遗传效应 (non-additive genetic effects):比如基因间的相互作用(上位效应),这会使遗传模式变得异常复杂。
十余年来,无数研究试图捕捉这些“嫌疑犯”,但受限于技术和样本量,始终未能给出一个决定性的答案。“遗传力缺失”的幽灵,依然在基因组的迷雾中徘徊。
全基因组测序的力量
要彻底搜查整个“犯罪现场”,而不是仅仅局限于路灯下的那一小块光明,我们需要更强大的工具。这个工具就是全基因组测序 (Whole-Genome Sequencing, WGS)。与只能检测特定常见变异的基因芯片不同,WGS技术能够读取一个个体的几乎全部DNA序列。
然而,WGS的成本曾是其广泛应用的最大障碍。直到近年来,随着测序成本的急剧下降和大型生物样本库的建立,为这场“幽灵”追捕行动提供了前所未有的武器库。
该研究的第一个制胜法宝,正是其无与伦比的数据规模。研究人员分析了来自英国生物样本库 (UK Biobank, UKB) 的数据,这是一个包含约50万名参与者健康和遗传信息的大型前瞻性队列。他们利用了其中 347,630名欧洲血统个体的完整WGS数据,分析了超过4000万个遗传变异位点对34种复杂性状和疾病的影响。这个样本量,对于WGS研究来说是里程碑式的,它提供的统计学效力,足以让我们看清那些曾经模糊不清的遗传信号。
更巧妙的是,研究人员的设计思路。他们不仅用WGS数据“自下而上”地计算了遗传力 (h²_WGS),还利用UKB中存在的亲缘关系(共计171,446对亲属),在同一个队列中“自上而下”地计算了谱系遗传力 (h²_ped)。这种在同一批人中进行直接比较的方法,最大程度地排除了因人群、检测方法、性状定义不同而产生的系统性偏差,使得结果的比较变得异常干净和有力。这相当于用两种不同的尺子去测量同一个物体,如果数值接近,那么我们对这个物体的尺寸就有了极大的信心。
幽灵现身:WGS数据“捕获”了88%的家族遗传力
当研究人员将两把“尺子”的测量结果并排放在一起时,惊人的一幕发生了。
在所分析的34个复杂性状中,平均而言,由WGS数据估算出的遗传力 (h²_WGS) 达到了谱系遗传力 (h²_ped) 的 88%!
这意味着,过去十几年里我们苦苦追寻的“失踪”人口,如今已有近九成被成功“找到”。这个数字表明,“遗传力缺失”的主要原因并非谱系研究的估算有误,也不是因为存在大量复杂的非加性效应,而根本上是因为我们之前的技术无法全面地测量所有类型的遗传变异。那个在黑暗中徘徊的“幽灵”,其实一直就在那里,只不过藏身于我们过去无法照亮的基因组区域。
让我们来看一些具体的例子。研究发现,在15个数量性状中,h²_WGS和h²_ped之间已经没有统计学上的显著差异。这些性状包括脚后跟骨密度 (heel bone mineral density)、血清碱性磷酸酶 (alkaline phosphatase) 水平、白细胞计数 (white blood cell count) 等。对于这些性状而言,我们可以充满信心地说,它们的遗传力之谜,基本上已经被解开了。我们现在知道,其遗传基础几乎完全可以由WGS检测到的加性遗传变异来解释。
当然,并非所有性状的“幽灵”都被同等程度地捕获。比如,对于端粒长度 (telomere length),WGS数据仅能解释其谱系遗传力的约34%;而对于子女人数 (number of children),这一比例也不到50%。这提示我们,对于某些特定性状,可能还存在着其他更复杂的遗传或环境因素在起作用,例如那些极难被短读长测序技术捕捉的超大型结构变异,或者更强的非加性效应。
这个88%的平均值,驱散了笼罩在遗传学上空的多年迷雾。它让我们思考:一个看似复杂的科学谜题,其答案有时可能就是最直接的那个,不是我们的理论错了,而是我们的工具还不够好。
遗传贡献的“贫富差距”:稀有变异的惊人力量
既然找到了88%的遗传力,下一个问题自然是:它们具体由谁贡献?这就像找到了失散多年的宝藏,我们还需要打开箱子,清点里面的金币和珠宝。研究人员巧妙地将所有遗传变异按照其在人群中的频率,分成了两类:常见变异 (common variants, MAF ≥ 1%) 和 稀有变异 (rare variants, MAF < 1%)。
分析结果揭示了一个深刻的遗传结构:
在WGS捕获的总遗传力中,平均 68% 来自常见变异。另外 20% 则来自稀有变异。
乍一看,常见变异似乎仍是“主角”。但请不要被这个比例迷惑。我们需要思考一个关键问题:常见变异和稀有变异在基因组中的数量完全不在一个量级上。常见变异的总数相对有限,而稀有变异则浩如烟海,每个人的基因组中都携带着成千上万个独特的稀有变异。因此,这些数量庞大但“人丁稀少”的稀有变异,竟然能联手贡献高达20%的遗传力,这本身就是一个极其重要的发现。它证实了长期以来的一种假说:许多复杂性状的遗传基础,是由少量效应中等的常见变异和大量效应各异的稀有变异共同构成的。
不同性状的遗传结构也呈现出巨大的差异。比如,对于受教育程度 (educational attainment),其WGS遗传力的 43% 竟然都来自于稀有变异,这是所有性状中比例最高的。这一发现极具启发性,暗示着影响认知和行为等复杂性状的遗传因素可能更多地隐藏在稀有变异之中。与之形成鲜明对比的是骨密度和低密度脂蛋白胆固醇 (LDL cholesterol),它们的稀有变异遗传力贡献均低于12%。
这就像不同的城市,其经济结构也不同。有的城市依赖少数几个大型国企(常见变异效应),有的则依赖成千上万个充满活力的中小微企业(稀有变异效应)。理解特定性状的“遗传经济结构”,对于未来的疾病风险预测和个性化医疗至关重要。
深入“基因暗物质”:非编码区才是主战场
在解剖了常见与稀有的贡献之后,研究人员将手术刀伸向了基因组的另一个维度:编码区 (coding regions) 与 非编码区 (non-coding regions)。
我们知道,仅占人类基因组约2%的编码区(即外显子组, exome),负责编码蛋白质,是生命活动的功能执行者。而广阔的非编码区,占基因组的98%,过去曾被误解为“垃圾DNA (junk DNA)”。然而,越来越多的证据表明,这片“基因暗物质”地带包含了大量的调控元件,它们如同基因表达的“指挥中心”,精细地控制着何时、何地、以何种强度开启或关闭某个基因。
由于全外显子组测序 (Whole-Exome Sequencing, WES) 技术成本更低,过去许多针对稀有变异的研究都局限在编码区。而该研究借助WGS的威力,终于能够系统地评估非编码稀有变异的真实贡献。
分析结果再次刷新了我们的认知。在稀有变异贡献的那20%遗传力中:仅有 21% 来自于编码区的稀有变异,而高达 79% 来自于广阔的非编码区的稀有变异!
这是一个里程碑式的结论。对于人类复杂性状而言,非编码区不仅不是“垃圾”,反而是稀有变异发挥作用的主战场。这些隐藏在“基因暗物质”中的微小变异,通过影响基因的调控,对我们的生理和病理产生着深远的影响。
当然,这并不意味着编码区不重要。如果考虑到不同区域在基因组中所占的比例,研究人员发现编码区的遗传力富集度 (heritability enrichment) 依然极高。常见编码变异的富集度高达36倍,稀有编码变异也达到了26倍。这意味着,编码区里的每个碱基,平均而言比非编码区的碱基“更值钱”,对性状的影响力更大。但这片“寸土寸金”的区域面积太小,以至于其总贡献,尤其是在稀有变异层面,反而不如那片虽然“单位产出”较低但“幅员辽阔”的非编码区。
这一发现对未来的遗传学研究具有战略性的指导意义:我们必须将目光从编码区这片“繁华都市”移开,投入更多精力去探索非编码区这片广袤的“无人区”,那里可能埋藏着解开更多疾病之谜的关键线索。
从“估算”到“定位”:我们能找到血脂异常的位点吗?
估算出遗传力的组成,好比绘制了一张藏宝图,标明了宝藏的大致区域。但最终的目标,是挖出真金白银,也就是找到那些与性状直接相关的具体遗传位点。
为此,研究团队在更大的一个样本(452,618名个体)中进行了GWAS分析。他们总共发现了 11,243个常见变异关联 (CVAs) 和 886个稀有变异关联 (RVAs)。
在这些新发现中,血脂相关性状的结果尤为亮眼。以低密度脂蛋白胆固醇 (LDL) 为例,它是心血管疾病的关键风险因子。研究人员发现,仅仅是他们新找到的41个稀有变异位点,加起来就能解释LDL水平变化的1%,这已经超过了LDL总稀有变异遗传力的三分之一!对于高密度脂蛋白胆固醇 (HDL),新发现的稀有变异同样解释了其近三分之一的稀有变异遗传力。
这是一个巨大的成功。它表明,只要样本量足够大,WGS不仅能“估算”出稀有变异的总体贡献,更能精准“定位”到其中效应较大的关键位点。研究人员还在一个完全独立的基因组发现联盟 (Alliance for Genomic Discovery, AGD) 队列中成功验证了这些发现,进一步增强了结果的可靠性。
更有趣的是,研究还发现,新发现的稀有变异位点(RVAs)往往与已知的常见变异位点(CVAs)在基因组上存在共定位 (colocalization) 的现象。也就是说,它们常常出现在同一个基因或其调控区域附近。这暗示着,常见变异和稀有变异可能通过不同的方式影响着相同的生物学通路,殊途同归地导致了性状的改变。这一规律为我们理解基因功能和寻找药物靶点提供了新的视角。
最后的12%:遗传学拼图上还剩下哪些空白?
88%,是一个令人振奋的数字,但它不是100%。在遗传力这块巨大的拼图上,仍有大约12%的空白等待我们去填补。这些“仍然缺失的遗传力 (still-missing heritability)”又藏在哪里呢?
该研究也为我们指明了未来探索的方向。研究人员认为,这最后的12%可能由以下几个因素构成:
1. 极稀有变异 (ultra-rare variants):该研究主要分析的是频率大于0.01%的变异。那些在数万乃至数十万人中才出现一次的极稀有变异,可能也贡献了一部分遗传力。
2. 难以检测的结构变异:当前的短读长测序技术在检测某些复杂的大片段基因组结构变异时仍存在盲区。
3. 参考基因组的不完整性:我们目前使用的hg38参考基因组仍有约8%的区域是空白或不准确的。研究人员估算,如果使用最新的端粒到端粒 (Telomere-to-Telomere, T2T) 完整版人类基因组,或许还能找回约5%的常见变异遗传力。
4. 轻微的非加性效应:虽然不是主要原因,但基因间的相互作用以及谱系估算中难以完全剥离的共享环境效应,可能依然是这12%的一部分。
科学的进步,正是在这样不断缩小未知边界的过程中实现的。这项研究将“未知”的范围从一个巨大的黑洞,缩小到了一个可以被清晰定义和逐一攻克的“小缺口”。
一部基因组,一部人类史:遗传密码的启示
回顾这场长达十余年的“遗传力缺失”探案之旅,我们可以看到一条清晰的脉络:它始于一个令人困惑的理论与现实的鸿沟,其间的探索充满了争论与猜测,而最终的突破则依赖于技术革命和数据规模的指数级增长。
这项《自然》研究的贡献是多方面的。它不仅以坚实的数据宣告了“遗传力缺失”之谜在很大程度上已被破解,更重要的是,它为我们描绘了一幅前所未有的人类复杂性状遗传结构全景图。
我们从中得知,我们的身高、血脂、甚至认知行为,都是由成千上万个常见和稀有的遗传变异共同谱写的交响曲。这首交响曲的主旋律,不仅演奏于功能明确的编码基因之上,更回响在广阔的、充满调控密码的非编码“旷野”之中。
这些发现将对未来的医学研究产生深远影响。例如,通过整合稀有变异信息,我们可以构建更精准的多基因风险评分 (polygenic risk scores),从而更早地识别疾病高危人群。通过深入研究那些富集了遗传信号的非编码区,我们有望发现全新的疾病调控机制和药物靶点。
最终,对遗传密码的探索,也是对我们自身的一次深刻洞察。每一个基因组,都镌刻着百万年演化的痕迹,也浓缩着一部独一无二的家族史。解开遗传力之谜,不仅是回答一个科学问题,更是为了更深刻地理解生命的复杂性、多样性,以及我们每个人之所以成为“我们”的根本原因。
版权声明 本网站所有注明“来源:生物谷”或“来源:bioon”的文字、图片和音视频资料,版权均属于生物谷网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:生物谷”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。